Applications and Outcomes of Large‑Language‑Model‑Generated Feedback in Undergraduate Medical Education: A Scoping Review
本研究系統性地分析了大型語言模型(LLM)在醫學本科教育中生成回饋的應用現狀及其教育成效。研究共納入 42 篇相關文獻,顯示 LLM 在提供即時、個人化且具任務針對性的回饋方面具有顯著潛力,其效果能與專家回饋相媲美。然而,目前的證據基礎仍呈現地理分布不均(集中於全球北方國家)且缺乏長期行為改變或患者層面影響的數據。雖然 LLM 在提升學生短期知識與技能方面展現出可行性,但準確性波動、AI 幻覺風險以及對人類監督的需求仍是其廣泛實施的主要挑戰。
應用現況
地理分佈
研究活動高度集中在「全球北方」(Global North)國家:
- 全球北方: 28 篇研究(67%),其中美國(12 篇)與德國(6 篇)為主要貢獻國。
- 全球南方: 14 篇研究(33%),領先國家包括中國(4 篇)、印度(3 篇)、沙烏地阿拉伯(2 篇)與伊朗(2 篇)。
模型選擇
OpenAI 的 GPT 系列模型佔據絕對主導地位:
- GPT-4: 43% 的研究採用。
- GPT-3.5: 38% 的研究採用。
- 新一代模型: 2025 年的部分研究已開始使用 GPT-4o 與 GPT-4o-mini。
- 其他模型: 僅少數研究探索了 Anthropic 的 Claude、Google Bard 或開源模型。
研究設計
- 僅 19%(8 篇)的研究採用了隨機對照試驗(RCT)設計。
- 參與醫學生的中位數為 60 人(範圍從 5 人到 234 人)。
回饋生成的兩大核心情境
LLM 在醫學本科教育中主要扮演即時、低風險的形成性回饋工具,主要應用於以下兩類情境:
| 情境類別 | 描述 | 回饋重點 |
|---|---|---|
| 模擬臨床接診 | 嵌入聊天、語音或機器人驅動的虛擬標準化病人。 | 病史詢問、溝通技巧、臨床推理過程。 |
| 文本評估任務 | 針對選擇題(MCQ)、臨床病例描述、論文及書面作業。 | 答案正確性、推理步驟、文章結構、語言使用、誤區識別。 |
在 69% 的研究中,回饋內容是針對個人學習者進行個人化定制的,儘管個人化程度有所不同。
教育成效評估
研究採用 Kirkpatrick 評估模型來分類教育產出,發現目前的證據主要集中在低層級成效:
| 層級 | 定義 | 研究數量 (百分比) | 關鍵發現 |
|---|---|---|---|
| 第 0 級 | 無學生數據 | 22 篇 (52%) | 側重於工具開發或內部質量評核(如專家評分)。 |
| 第 1 級 | 學生反應 | 10 篇 (24%) | 學生對自信心、動力及學習有效性有正向感知,滿意度普遍在 3.5-4/5 之間。 |
| 第 2 級 | 學習成效 | 10 篇 (24%) | 在臨床推理、知識掌握及學術寫作方面有顯著提升,效果通常與專家相當。 |
| 第 3 級 | 行為改變 | 0 篇 (0%) | 尚無研究調查回饋是否轉化為臨床環境中的觀察行為。 |
| 第 4 級 | 對結果的影響 | 0 篇 (0%) | 尚無對組織、患者護理或醫療質量的影響報告。 |
LLM 回饋表現
評估表現優異不遜於人類專家,特定情境表現出與人類專家展現的高度一致性
LLM 在特定情境的評估標準上,能展現出與人類專家極度相近的判斷能力,表現並不遜色於人類。
- 評估變項:在病史詢問(History taking)情境中,LLM 扮演模擬病人並給予即時結構化回饋時,與人類評分者判斷的一致性。
- 結果數據:整體一致性Cohen’s κ 值高達 0.832。然而,在細分的 45 個回饋指標中,仍有 8 個類別的 κ 值低於 0.6 (Holderried et al., 2024)。
回饋內容正確率達近八成,但「捏造文獻(幻覺)」的風險極高
LLM 生成的解釋與推論在正確率上具有一定的水準,但若要求其提供學術參考文獻,則會出現嚴重的幻覺問題。
- 評估變項與數據(解答推論):GPT-4 生成選擇題解答推論(rationales)的正確率被報告為 77.5% (Ch’en et al., 2025)。
- 評估變項與數據(生理學案例):針對生理學案例情境題,由專家評估正確性與適當性,ChatGPT 的正確率表現最佳(79%),勝過 Google Bard(72%)與 Microsoft Bing Chat(54%) (Dhanvijay et al., 2023)。
- 評估變項與數據(藥理學選擇題與文獻):LLM 為藥理學選擇題生成解釋的正確率為 77.8%;然而,其提供參考文獻的錯誤率(捏造文獻)高達 69.7% (Choi, 2023)。
回饋廣受專家認可具高實用性,但在「深度臨床推理」仍不及人類
多數專家盲測認為 LLM 生成的回饋對學生非常有幫助且涵蓋面向廣泛,但遇到需要深度臨床推理的情境時,人類專家的指引仍具有不可替代的優勢。
- 評估變項與數據(抗生素管理):專家盲測評估 LLM 對學生開放式回答的回饋,92% 的 LLM 回饋被認為是有幫助的,且沒有任何生成的內容帶有錯誤資訊(0% 虛構錯誤/幻覺) (Driesnack et al., 2024)。
- 評估變項與數據(涵蓋重點能力):在基礎與臨床科學選擇題中,65.4% 的 AI 解釋涵蓋了教師解答的「所有」面向,92.6% 涵蓋了「至少一個」面向。不過,仍有 2.7%(首次生成)至 34.6%(再次生成)的正確答案回饋被認為是不充分或不正確的 (Tong et al., 2025)。
- 評估變項與數據(跨學科複雜選擇題):在臨床複雜的情境下,85% 的 GPT-4 生成回饋被評為「適合使用(fit for use)」。然而,人類專家撰寫的解釋在「真實性(veracity)」與「臨床推理(clinical reasoning)」指標上仍顯著優於 AI,兩者僅在回饋的「全面性(comprehensiveness)」上沒有顯著差異 (Wu et al., 2025)。
實施建議與未來方向
對醫學院的實施建議
- 安全部署標準: 應包含對學生的明確告知,並在涉及高風險任務時由教師進行後期編輯。
- 數據隱私: 實施計劃必須符合機構數據隱私政策(如 GDPR)。
- 跨團隊協作: 資訊技術團隊應與醫學教育工作者合作,確保技術應用具有真正的教育效益。
未來研究優先事項
- 高層級產出評估: 亟需評估行為改變(第 3 級)及結果改變層面(第 4 級)的影響。
- 透明度要求: 未來研究應透明地報告提示詞(Prompts)和模型參數以實現可重複性。
- 技術多元化: 探索適用於局部使用的、保護隱私的開源解決方案。
- 成本效益分析: 納入實施科學分析,以指導可持續的大規模應用。